Vision Transformer入門
2022年9月17日紙版発売
2022年9月15日電子版発売
片岡裕雄 監修,山本晋太郎,徳永匡臣,箕浦大晃,邱玥(QIU YUE),品川政太朗 著
1-1 自然言語処理におけるTransformerの登場
1-2 Vision and languageへの拡張
1-3 コンピュータビジョンにおけるTransformer
第2章 Vision Transformerの基礎と実装
2-1 準備
2-2 ViTの全体像
2-3 Input Layer
2-5 Encoder
2-6 ViTの実装
第3章 実験と可視化によるVision Transformerの探求
3-1 実験の概要
3-2 使用するデータセット
3-3 実験条件
3-4 既存手法との比較
3-5 データ拡張における比較
3-6 位置埋め込みの可視化
3-7 ViTにおける判断根拠の可視化
3-8 ViTが捉えているモノ
第4章 コンピュータビジョンタスクへの応用
4-1 コンピュータビジョンのサブタスク
4-7 その他のコンピュータビジョンサブタスクへの応用
4-8 Transformer応用のまとめと展望
5-1 Vision and Languageのサブタスク
5-5 その他のVision and Languageサブタスクへの応用
5-6 Vision and Languageのまとめと展望
第6章 Vision Transformerの派生手法
6-1 ViT派生手法の分類
第7章 Transformerの謎を読み解く
7-1 Transformerの謎に人々は驚き困惑した
第8章 Vision Transformerの謎を読み解く
8-2 ViTはCNNと同じく局所特徴を学習する
8-3 ViTはより形状に反応する?
8-4 ViTは早期から大域的な領域も見ている
8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健?
8-6 3つのモデルの特性と使い分けの勘どころ
8-7 ViTの新常識